Bergerak Melampaui Pemrograman Umum

Optimasi melalui Fine-Tuning dan Arsitektur Khusus

1. Di Luar Prompt Biasa

Meskipun pemrograman "Few-Shot" merupakan titik awal yang kuat, meningkatkan solusi AI sering kali membutuhkan perpindahan ke Fine-Tuning Terawasi. Proses ini menanamkan pengetahuan atau perilaku khusus langsung ke dalam bobot model.

Keputusan: Anda hanya boleh melakukan fine-tuning ketika peningkatan kualitas respons dan pengurangan biaya token melebihi usaha komputasi dan persiapan data yang signifikan.

$Biaya = Token \times Tarif$

2. Revolusi Model Bahasa Kecil (SLM)

Model Bahasa Kecil (SLM) adalah varian yang sangat efisien dan disederhanakan dari model besar mereka (misalnya, Phi-3.5, Mistral Small). Mereka dilatih menggunakan data yang sangat dipilih dan berkualitas tinggi.

Pertukaran: SLM menawarkan latensi yang jauh lebih rendah dan memungkinkan penempatan di pinggiran (berjalan secara lokal di perangkat), tetapi mereka mengorbankan kecerdasan "menyerupai manusia" yang luas dan umum yang ditemukan pada LLM besar.

3. Arsitektur Khusus

Campuran Ahli (MoE): Teknik yang memperbesar ukuran model secara keseluruhan sambil tetap menjaga efisiensi komputasi selama inferensi. Hanya sebagian kecil "ahli" yang aktif untuk setiap token tertentu (misalnya, Phi-3.5-MoE).
Multimodalitas: Arsitektur yang dirancang untuk memproses teks, gambar, dan kadang-kadang audio secara bersamaan, memperluas kasus penggunaan di luar pembuatan teks (misalnya, Llama 3.2).

Hierarki Efisiensi

Selalu coba Pemrograman Prompt terlebih dahulu. Jika gagal, terapkan RAG (Generasi yang Diperkaya Pencarian). Gunakan Fine-Tuning hanya sebagai langkah optimasi lanjutan terakhir.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

Question 1

When does the course recommend proceeding with fine-tuning over prompt engineering?

When the benefits in quality and cost (reduced token usage) outweigh compute effort.

Whenever you need the model to sound more human-like.

As the very first step before trying RAG or prompt engineering.

Only when deploying to an edge device.

Question 2

Which model architecture allows scaling model size while maintaining computational efficiency?

Supervised Fine-Tuning (SFT)

Retrieval-Augmented Generation (RAG)

Mixture of Experts (MoE)

Multimodality

Challenge: Edge Deployment Strategy

Apply your knowledge to a real-world scenario.

You need to deploy a multilingual translation tool that runs locally on a laptop with limited GPU resources.

Task 1

Select the appropriate model family and tokenizer for this multilingual, low-resource task.

Solution:
Mistral NeMo with the Tekken Tokenizer. It is optimized for multilingual text and fits within SLM constraints.

Task 2

Define the deployment framework for high-performance local inference.

Solution:
Use ONNX Runtime or Ollama for local execution to maximize hardware acceleration on the laptop.